La evolución del NLP representa un cambio fundamental desde tratar el lenguaje como símbolos discretos e independientes hasta mapearlo en un espacio vectorial continuo y multidimensional. Hemos avanzado desde representaciones simples representaciones basadas en características hacia mapas semánticos profundos.
El Cambio en la Representación
- La Era Estadística (Esparsa): El NLP temprano se basaba en el algoritmo TF-IDF. Aunque es eficaz para recuperación, sufre la "maldición de la esparsidad". En un sistema TF-IDF, "Médico" y "Doctor" son vectores ortogonales: matemáticamente, no tienen relación alguna.
- La Revolución Distribuida (NNLM y Word2Vec): Los Modelos de Lenguaje de Redes Neuronales introdujeron vectores densos. Word2Vec (Skip-gram/CBOW) aprende que las palabras que aparecen en contextos similares deben ser vecinas espacialmente.
- Estadísticas Globales (GloVe): Los Vectores Globales puenten la brecha analizando la co-ocurrencia global en todo el corpus, asegurando que la distancia refleje similitud semántica matemática.
Profunda Perspectiva
La transición de contar ocurrencias a predecir contexto permite a los modelos captar matices. Esta "Representación Distribuida" significa que el significado de una sola palabra se distribuye entre cientos de dimensiones vectoriales, cada una potencialmente representando una característica semántica latente como género, realeza o contexto médico.